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摘 要 : 针对 传统 协同 过 滤 算 法 中 存在 的 流行 度 偏差 问题 ， 提 出 一 种 结合 项 目 流行 度 加 权 的 协同 过 滤 推 荐 算法 。 在 

项 目 协同 过 滤 算 法 的 基础 上 ， 分 析 项 目 流行 度 人 异 对 林 似 放 的 影响 ; 设置 流行 度 闪 值 ， 对 大 于 该 国 值 的 流 

目 设 计 惩 罚 权 重 ， 降 低 其 对 项 目 间 相似 度 的 贡献 。 通 过 在 MovieLens1M 和 Epinion 数据 集 上 进行 实验 验证 和 对 
上 ， 结 果 表 明 ， 所 提 算 法 的 预测 We 有 效 提高 了 推荐 的 多 样 性 和 新 颖 性 ， 一 定 程度 上 

2 流行 度 偏差 问题 。 
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Collaborative filtering recommendation algorithm based on item popularity weighting 


Wei Tiantian, Chen Li', Fan Tingting, Wu Xiaohua 
(School of Information Science & Technology, Northwest University, Xi*an 710127, China) 


Abstract: Aiming at the popularity bias problem in traditional collaborative filtering algorithms, this paper proposes a 
collaborative filtering recommendation algorithm combined with item popularity weighting. On the basis of the item 
collaborative filtering algorithm, it analyzes the influence of item popularity and popularity difference between items on 
similarity. The algorithm, by analyzing the influence of item popularity and popularity difference on item similarity, uses the 
item popularity and popularity difference designed the penalty weight functions to adjust the similarity between popularity 
items when the item popularity is greater than the threshold. The experiments on the MovieLens1M and Epinion datasets 
show that the proposed algorithm has better prediction accuracy and coverage than traditional algorithms, which effectively 
improves the diversity and novelty of recommendations, and alleviates the popularity bias problem. 
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0 引言 B56 加 剧 了 数据 的 稀疏 性 ， 导致 部 分 相似 度 计算 欠 准 确 。 针 对 
时 该 问题 ，AhnI 提 出 一 种 新 的 用 户 相 似 性 度量 方式 
互联 网 技术 的 迅猛 发 展 将 人 们 带 进 了 数据 爆炸 的 时 代 ， PIP(proximity-impact-popularity)， 利 用 三 种 因子 共同 计算 用 
海量 数据 的 同时 呈现 ， 加 剧 了 信息 过 载 问题 吊 。 推 荐 系统 从 户 间 的 相似 度 ， 推 荐 质量 优 于 传统 的 相似 性 度量 方法 。 
为 缓解 信息 过 载 的 有 效 手段 之 一 ， 已 经 广泛 地 被 应 用 到 电子 。 Ekstrand 等 人 [SI 在 RecSys 年 会 上 公布 了 开源 工具 LensKit， 
商务 (Amazon、 京 东 )、 电 影 和 视频 (Youtubo、MovieLens) 等 ” 提出 了 一 种 均值 标准 化 的 余弦 相似 度 计算 方法 。 在 计算 两 个 
领域 并 取得 较 大 进展 。 项 目的 相似 度 时 ， 考 虑 到 只 对 其 中 一 个 项 目 有 评分 的 数据 惩 
协同 过 滤 (collaborative filtering, CF) 外 是 目前 应 用 最 广 罚 项 目 间 的 相关 性 ， 组 解 了 相似 度 计 算 欠 准确 的 问题 。 上 述 
泛 、 最 成 功 的 推荐 算法 ， 它 的 基本 假设 是 : 如 果 用 户 对 一 些 ”两 种 方法 上 8 通过 改进 相似 度 计 算 公式 缓解 数据 稀疏 性 问题 ， 
项 目的 评分 比较 相似 ， 则 他 们 具有 相似 的 偏好 ， 因 此 他 们 对 以 达到 提高 推荐 准确 度 的 目的 ， 但 是 并 没有 考虑 到 流行 度 偏 
其 他 项 目的 评分 也 相似 。CF 主要 分 为 基于 用 户 的 协同 过 滤 算 差 现象 0~ 2 , 导致 推荐 结果 的 覆盖 率 较 低 。 针 对 该 问题 , Zhao 
法 (user based collaborative filtering, UBCF) 和 基于 项 目的 协同 等 人 [利用 项 目 流行 度 阐 值 设计 权重 函数 ， 降 低 流行 项 目 对 
过 滤 算 法 (item based collaborative filtering, IBCF)。UBCF 通 用 户 相 似 度 的 影响 。 实 验 结果 表 明 ， 该 方法 一 定 程度 上 缓解 
过 计算 用 户 间 的 相似 度 得 到 “邻居 ”用 户 集合 ， 帮 助 目标 用 了 UBCF 存在 的 流行 度 偏差 现象 ， 且 推荐 准确 度 优 于 传统 的 
户 找到 可 能 会 感 兴趣 的 项 目 ， 而 IBCF 则 通过 计算 项 目 间 的 。” UBCF。Chen 等 人 (3 通过 分 析 流 行 度 对 推荐 结果 的 影响 ， 提 
相似 度 得 到 “邻居 ”项 目 集合 ， 根 据 目 标 用 户 的 历史 偏好 记 出 利用 可 调节 的 项 目 流行 度 改进 基于 用 户 偏 好 的 方法 ， 实 验 
录 ， 为 其 推荐 相似 的 项 结果 证 明 适 度 地 项 目 流行 度 调节 可 以 提高 推荐 的 准确 性 和 多 
为 了 找到 “邻居 ”和 集合， 一 般 要 度量 用 户 或 项 目 间 的 相 。 样 性 。 但 是 随 着 用 户 和 项 目的 不 断 加 入 ,改进 的 UBCF 可 能 
似 度 ， 不 同 的 相似 性 度量 函数 ， 产 生 不 同 的 “邻居 ”集合 ， 会 面临 可 扩展 性 问题 。 王 锦 坤 等 人 (4 在 IBCF 的 基础 上 ， 提 
最 终 影 响 推 荐 结果 。 因 此 利用 合适 的 相似 性 度量 函数 产生 偏 出 一 种 考虑 用 户 活跃 度 和 项 目 流行 度 的 协同 过 滤 算 法 ， 根 据 
好 相似 的 “邻居 ”是 整个 协同 过 滤 推 荐 算法 的 关键 器。 在 实 i 行 度 差 异 阔 值 对 项 目 相似 度 设 计 惩罚 权重 ， 一 定 程度 上 组 
际 的 系统 中 存在 数据 稀 玻 性 问题 内， 传统 的 相似 性 度量 方法 ” 解 了 可 扩展 性 问题 ， 提 高 了 数据 稀疏 环境 下 流行 度 较 低 的 项 
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目 被 推荐 的 概率 。 但 是 该 方法 仅仅 对 部 分 项 目 设计 惩罚 函数 ， 


忽略 了 同时 对 两 个 项 目 有 评分 的 数据 ， 相 似 度 计 算 欠 准确 。 


乡 


结合 项 目 流 行 度 改 进 


取得 了 一 定 的 效果 ， 但 是 在 计算 项 目 间 的 相似 度 时 ， 


两 个 项 


由 于 流行 度 不 同 


行 度 高 的 项 目 被 用 户 同时 选择 和 评价 的 
行 项 目 间 的 相似 度 普遍 偏 高 。 针 对 该 问题 ， 本 文 设置 流行 度 


能 性 较 大 ， 


| 


的 IBCF 对 于 绥 解 流行 度 偏差 现象 


忽略 了 


， 对 相似 度 会 产生 不 同 的 影响 。 流 


导致 流 


闵 值 ， 对 大 于 该 流行 度 闵 值 的 项 目 ， 利 用 项 目 流行 度 和 流行 


度 差异 分 别 设计 权重 函数 ， 


程 中 ， 实 现 了 项 目 流行 度 
weighting-IBCF(PW-IBCF)。 本 文 在 MovieLens1M 和 Epinion 


数据 集 上 进行 实验 仿真 ， 实 验 结果 表 


改善 流行 度 偏差 问题 ， 提 


1 ”相关 工作 
1.1 基于 项 目的 协同 过 滤 算法 


其 于 项 目的 协同 过 滤 霸 


标 jj 已 。 


p32 二 
段 设 区 = 人 oo 


并 将 其 引入 到 项 目 相 似 度 计算 过 
加 权 的 相似 性 度量 方法 popularity 


有 ， 本 文 算法 能 够 有 效 
高 推荐 的 多 样 性 和 新 颖 性 。 


本 思想 是 计算 项 目 间 的 相似 度 ， 
选取 目标 项 目的 “邻居 ”项 目 集合 ， 将 类 似 的 物品 推荐 给 目 
- } 表示 m 个 用 户 集合 ， 了 = 二 


表示 n 个 项 目 集合 , 用 户 对 项 目的 评分 信息 使 用 mxn 阶 的 用 


户 -项 目 评分 矩阵 R 表示 ， 
分 矩阵 的 例子 。 其 中 ， 记 表示 用 户 咋 对 项 目 i 的 评分 ， 记 =0 
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分 尺度 问题 ， 修 正 的 余弦 相似 度 通过 减 去 不 同 用 户 的 评分 均 


值 来 改善 上 述 问题 。 假 设 对 项 目 i 和 j 同时 评分 过 的 用 户 集 


合 为 01NV;，% 表示 用 户 u 的 评分 均值 ， 修 正 的 余弦 相似 度 


计算 方法 如 式 (3) 所 示 。 


皮尔 森 相 关系 数 : 反映 两 个 变量 线性 相关 程度 ， 也 被 广 


泛 用 于 协同 过 滤 相似 性 的 度量 。 假 设 和 六 分 别 表示 项 目 i 


和 j 的 评分 均值 ， 皮 尔 森 相关 系数 计算 方法 如 式 (4) 所 示 。 
ACOS (ns 7) a ) 
Sim(i, j) 一 一 = (3) 
sim(i,j)} 2 = = 5 (4) 
(DD) 
ueUifNU; ueUifU; 
1.3 ”流行 度 偏差 现象 
流行 度 偏差 ! 导 是 传统 协同 过 滤 算 法 中 普遍 存在 的 一 种 


现象 ， 流 行 度 越 高 的 项 目 被 推荐 得 越 频繁 ， 而 流行 度 较 低 的 


项 目 则 不 容易 得 到 推荐 ,统计 MovieLens1M 用 户 评分 数据 集 


R=[i]”。 表 1 给 出 了 用 户 项 目 评 


代表 该 用 户 对 该 项 目 未 产生 评分 。 
表 1 用 户 一 项 目 评分 矩阵 
Table 1 Example of user-item rating matrix 

Le [A b 五 i 

Ul 2 3 0 0 

Us 1 0 0 5 

Us 0 0 0 4 

Us 0 0 0 0 

得 到 用 户 项 目 评分 矩阵 后 ， 基 于 项 目的 协同 过 滤 算 法 如 

下 :; 


a) 计 算 目 标 项 目 i 与 系统 中 其 他 项 目 jsz 的 相似 度 


sim(i,j) 。 利 用 项 目 相 似 度 计算 公式 计算 项 目 
以 度 和 矩阵 Mi (i,j) 。 
b) 确 定 目标 项 目的 近邻 集合 N; 。 根 据 Mi (i,j) 为 目标 项 
目 似 度 最 大 的 K 个 项 目 作 为 近 令 项目 集合 N;。 

时 目标 项 目 i 与 近邻 项 目 Jsw' 的 相 


到 项 目 相 人 


目 i 选取 林 


c) 产 生 评 分 预测 。 根 ] 


似 度 sim(i,j) 和 评分 值 计算 评分 预测 值 叉 ， 预 涡 


所 示 。 


传统 的 项 


sin(e))s, 
jeN, 


Pu 7 
1.2 传统 的 相似 性 度量 方法 


似 度 、 修 正 的 余弦 相似 度 和 皮尔 森 相 关系 数 。 


余弦 相似 度 : 项 目 评分 被 看 成 是 m 维 用 
量 ， 项 目 闻 的 相似 性 通过 向 量 间 的 余弦 夹 角度 量 。 设 项 目 i 


的 和 j 的 评分 向 量 为 二 和 


不 。 


空间 上 的 向 


间 的 相似 度 ， 得 


I 方法 如 式 (1) 


(1) 


相似 度 计算 公式 外 主要 有 三 种 ， 包 括 余 弦 相 


的 项 目 流行 度 ， 其 中 流行 度 较 低 ( 小 于 项 目 流行 度 均值 ) 的 项 


推荐 列表 中 流行 项 目 较 多 , 导致 多 样 性 和 新 宙 


偏差 现象 。 
2 ”结合 项 目 流行 度 加 权 的 协同 过 滤 推 


目 约 占 70%， 流 行 度 较 高 的 项 目 约 占 30%， 流 行 度 较 低 的 项 
目 明显 比 流 度 高 的 项 目 多 。 然 而 传统 的 协同 过 滤 算 法 产生 的 


性 较 低 。 因 此 ， 


在 推荐 系统 中 需要 减少 流行 项 目 被 推荐 的 机 会 以 缓解 流行 度 


荐 算法 


传统 的 项 目 协同 过 滤 算 法 在 计算 相似 度 时 忽略 了 项 目 流 


行 度 的 影响 ， 导 致 流行 度 低 的 项 目 不 容易 得 到 推荐 。 为 了 有 


效 地 缓解 流行 度 偏差 现象 ， 需 要 对 流行 度 较 高 的 设计 相似 度 
惩罚 函数 。 通 过 分 析 项 目 流行 度 和 流行 度 差 异 对 项 目 相似 度 
的 影响 ， 对 流行 度 较 高 的 利用 项 目 流行 度 与 项 目 流行 度 差异 


确 。 
2.1 项 目 流 行 度 


对 相似 度 设计 惩罚 权重 ， 降 低 流行 项 目 间 的 相似 度 以 缓解 伟 
统 相似 性 度量 方法 存在 的 不 足 ， 使 得 项 目 间 的 相似 度 比 较 准 


项 目 流行 度 一 般 是 指 该 项 目 被 用 户 评分 的 用 户 数 03， 某 


个 项 目 被 评价 的 次 数 越 多 ， 该 项 目的 流行 度 越 高 。 流 行 度 高 
的 项 目 可 能 由 于 其 知名 度 或 者 性 价 比 高 被 大 多 数 用 户 评价 ， 


如 果 存 在 共同 评分 项 目 ， 并 不 代表 该 流行 项 目 与 其 他 项 目 相 


似 。 对 于 每 一 个 项 目 i,， 统计 对 其 评分 的 用 户 数 NumU; 


i 的 流行 度 Popltem, = NumU; ， 对 其 进行 归 一 化 ， 


Popltem; — MinPop 


NormPopltem; = 一 一 
MaxPop — MinPop 


， 余 弦 相 似 度 计算 方法 如 式 (2) 所 


LR 


sim(i, )) = 和 
”FE 人 
E 的 余弦 相似 度 : 余弦 相似 度 没 有 考虑 不 同 用 户 的 评 


修了 


值 和 最 大 值 。 


表 1 中 展示 的 评分 矩阵 包括 四 个 项 目 ， 分 别 统计 其 项 目 


。 项 目 
使 项 目 流行 度 


的 取 值 范围 保持 在 [0,1] 之 间 。 归 一 化 公式 如 式 (5)〉 所 示 . 


(5) 


其 中 : NormPopltem; 是 归 一 化 后 项 目 i 的 流行 度 ，Poprem 是 项 
目 i 的 流行 度 : MinPop、MaxPop 分 别 是 项 目 流行 度 的 最 小 


流行 度 。 Popltem, 、Popltem, 、 Popltemy、 Popltems 分 别 是 2、1、 


0、2。 按 照 式 (3) 对 其 进行 归 一 化 ， 则 归 一 化 后 的 项 目 流行 度 


分 别 为 1、0.5、0、1。 
2.2 流行 度 差 异 
流行 度 差 异 越 小 的 项 目 一 起 出 现 的 可 能 怕 


FE 越 大 ， 本 文 将 
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项 目 间 的 流行 度 差异 定义 为 归 一 化 后 项 目 流行 度 之 差 的 绝对 罚 的 协同 过 滤 算 法 。 首 先 根据 用 户 项 目 评分 和 矩阵 R 计算 项 目 
值 。 当 项 目 间 的 流行 度 差 异 越 小 ， 这 两 个 项 目 由 于 流行 度 相 流行 度 以 及 项 目 流行 度 差异 ， 设 置 项 目 流行 度 闵 值 < 分 别 计 
近 而 同时 出 现 的 可 能 性 越 大 ， 同 时 被 评价 的 可 能 性 也 越 大 ; 算 两 个 项 目的 惩罚 权重 ， 在 计算 相似 度 时 ， 利 用 惩罚 权重 调 
反之 ， 如 果 项 目 间 的 流行 度 差异 越 大 ， 则 同时 被 评价 的 可 能 ” ” 节 不 同 流行 度 的 项 目 对 相似 度 的 贡献 .算法 的 具体 描述 如 下 : 
性 越 小 。 NormPoplem 表示 归 一 化 后 项 目 i 的 流行 度 ， 算法 : 结合 项 目 流行 度 加 权 的 协同 过 滤 推 荐 算法 
NormPopltem; 表示 归 一 化 后 项 目 j 的 流行 度 ， 则 项 目 i 和 j 的 输入 : 用 户 项 目 评分 矩阵 R、 目 标 用 户 u、 目 标 项 目 i。 
流行 度 差异 定义 如 式 (6〉 所 示 。 输出 : 目标 用 户 u 对 目标 项 目 i 的 预测 评分 Ph。 
PopBias; ; =|NormPopltem, — NormPopltem,| (6) 3 计算 项 站 ， 的 流行 度 ee 。 根据 9) 对 i 
b) 根 据 定义 6 计算 项 目 流行 度 差异 PopBias;; ; 
按照 式 (6) 计 算 表 1 中 的 项 目 流行 度 差异 , 构建 项 目 流行 0o) 设 置 流行 度 闵 值 @ ; 
度 差 异 矩 阵 如 表 2 所 示 。 由 表 2 可 知 , PopBias1,2 < PopBias13， d 利 用 式 (7) 和 (8) 计 算 项 目的 惩罚 权重 w 和 ww; 
寻 此 项 目 1 和 2 一 起 出 现 的 可 能 性 大 于 项 目 1 和 3 一 起 出 现 e) 根 据 式 (9) 计 算 项 目 间 的 相似 度 sim(i,j), 构建 项 目 相 似 
的 可 能 性 。 度 和 矩阵 Mi (i,j) ; 
表 2 项 目 流行 度 差异 矩阵 利根 据 Mi (i,j) 为 项 目 ie7 ， 找 到 相似 度 最 大 的 K 个 项 
Table 2 Matrix of item popularity difference 目 集合 作为 项 目的 最 近邻 N ; 
PopBiasiy i b 让 国 外 利用 式 (1) 计 算 目 标 用 户 u 对 目标 项 目 i 的 评分 预测 值 
让 0 0.5 1 0 Pi o 
l, ，” ，， 。 “3 实验 结果 及 分 析 
i 0 0.5 1 0 本 章 首先 介绍 实验 所 用 到 的 数据 集 ， 然 后 说 明 评 价 标准 
2.3 项 目 流 行 度 和 流行 度 差 异 对 相似 度 的 影响 以 及 对 比 算法 和 参数 设置 ， 最 后 给 出 本 文 提出 的 算法 与 其 他 
传统 的 项 目 相 似 度 计算 方法 忽略 了 项 目 流行 度 的 影响 ， 算法 的 对 比 实验 结果 ， 并 对 实验 结果 进行 分 析 。 
事实 上 流行 度 高 的 项 目 更 容易 被 用 户 选择 和 评价 ， 导 致 大 多 ”3.1 实验 数据 集 描述 
数 流 行 项 目 间 的 相似 度 偏 高 。 在 计算 两 个 项 目的 相似 度 时 ， 本 文 实验 使 用 两 个 数据 集 ， 分 别 是 明尼苏达 大 学 
使 用 项 目 流行 度 阔 值 将 项 目 分 为 两 个 部 分 ， 当 流行 度 大 于 该 ”GroupLens 研究 组 收集 的 ML-1M 电影 数据 集 021 和 Epinion 数 
阔 值 ， 则 对 其 相关 度 进行 惩罚 。 流 行 度 越 高 的 项 目 ， 对 相似 。” 据 集 。 在 ML-1M 数据 集中 , 每 个 用 户 至 少 对 20 部 电影 评分 ， 
度 的 贡献 越 小 ， 反 之 则 对 相似 度 贡献 越 大 ， 因 此 项 目 流 行 度 ”而 在 Epinion 数据 集中 每 个 项 目 至 少 被 评分 1 次 。 使 用 5 折 
与 惩罚 权重 正 相 关 。 除 了 项 目 流行 度 外 ， 项 目 间 的 流行 度 差 ”交叉 验证 对 数据 集 进行 划分 ， 从 中 抽取 80% 作 为 训练 集 构建 
异 对 其 相似 度 也 有 影响 。 两 个 项 目 间 的 流行 度 差异 越 小 ， 被 。 ”模型 ，20% 作 为 测试 集 验 证 算法 的 效果 。 
同时 评价 的 可 能 性 越 大 ， 相 似 度 惩罚 权重 也 就 越 大 ， 流 行 度 表 3 实验 数据 集 描 述 
差异 与 惩罚 权重 负 相 关 。 Table 3 Description of datasets used in experiments 
结合 以 上 分 析 ， 根 据 两 个 项 目的 流行 度 不 同 本 文 在 相似 要 了 瑟 评分 数 二 
度 计算 公式 中 分 别 引入 惩罚 权重 式 (7) 和 (8)。 A 
1 No bopiem < ML-IM 6040 3952 1000209 ”95.81% 
w; =1 NormPopltem, Naripopliem Sa (7) Epinion 1071 6131 71833 98.91% 
LopBiasy 实验 数据 集 描述 如 表 3 所 示 。 其 中 稀疏 度 表 示 数 据 集中 
1 NormPopltem; < 未 评分 项 目的 占 比 。 稀疏 度 S 越 大 ， 表示 该 数据 集 越 稀 玻 ， 
w; = NormPopltem;, NormpPopltem, > a (8) 计算 方法 如 式 (10) 所 示 。 
PopBias; ; 
1 Nn =1- (10) 
其 中 : w 和 ww 分 别 是 项 目 i 和 j 的 惩罚 函数 ， 反 映 了 流行 度 mxn 
不 同 的 两 个 项 目 在 计算 其 相似 度 时 体现 的 不 同 权 重 。 其 中 < 3.2 度量 标准 
是 设 定 的 流行 度 阐 值 ， 如 果 项 目 i 或 j 的 流行 度 小 于 该 阔 值 ， 平均 绝对 误差 (mean absolute error，MAE) 是 推荐 系统 中 
则 认为 该 项 目的 流行 度 较 低 ， 惩 罚 权重 设置 为 1; 若是 大 于 常用 的 推荐 质量 度量 方法 ， 通 过 预测 评分 与 实际 评分 的 差异 
该 六 值 ， 则 认为 该 项 目 流行 度 较 高 。 和 您 神权 重 设 置 为 该 项 目 计算 预测 的 准确 性 。MAE 的 定义 如 下 : 
的 流行 度 与 流行 度 差异 的 比值 ， 项 目的 流行 度 越 高 ， 项 目 间 Sl, 
流行 度 差异 越 小 ， 则 惩罚 权重 越 大 。 将 设计 的 权重 函数 引入 -4 (11) 
到 相似 度 计算 公式 中 ， 改 进 后 的 项 目 相似 度 计算 公式 为 站 
其 中 : T 是 测试 集 ; i 是 用 户 u 对 项 目 i 的 真实 评分 值 ，P; 是 
本 用 户 u 对 项 目 i 的 预测 评分 值 。MAE 值 越 小 ， 表 示 预 测 准确 
， (9) E 
度 越 高 。 
履 盖 率 (coverage) 衡 量 推荐 系统 中 推荐 的 物品 占 总 物品 
其 中 : “snw 表示 两 个 项 目 均 有 评分 的 用 户 集合 ，ueU, 表 合 的 比例 ， 能 有 效 反 映 推荐 的 多 样 性 和 新 颖 性 09。 履 盖 率 
示 对 项 目 i 评分 的 用 户 集合 ，ueUj 表示 对 项 目 j 评分 的 用 户 的 计算 公式 为 
集合 
2.4 算法 描述 so (12) 
基于 以 上 分 析 ， 提 出 了 利用 项 目 流行 度 对 相似 度 进行 秆 


201901.00058v1 


chinaXiv 


录用 定稿 


， 等 : 结合 项 目 ) 


其 中 :U 为 进行 推 


是 为 用 户 u 推荐 的 项 


性 也 相对 较 高 。 
3.3 ”对比 算 法 及 参数 设置 
ee sare Rl 


分 预测 方法 。 


现 有 的 结合 项 目 流行 度 


合 ;I 为 系统 中 的 项 目 集合 ; R() 
列表 。 和 覆盖 率 较 高 时 ， 多 样 性 和 新 颖 


E， 将 本 文 算法 与 
0 


包括 基于 均值 标准 
(NCOS-IBCF) WI、 引信 流行 放 
(W-UBCF) [21、 
(ECF) 503 和 考虑 用 户 ; 
的 协同 过 滤 算 法 (UA-IBCF) 


结合 项 目 流行 度 控制 的 增 


工 


最 近邻 方法 


司 过 滤 推 荐 算法 
办 同 过 滤 算 法 
流行 度 的 基于 项 目 最 近邻 
上 有 的 算法 均 采 取 同 样 的 评 


本 文 实验 环境 为 Windows 10 64 位 操作 系统 ,8 GB 内 存 ， 


IntelR) CoreCM) i5-4670 CPU @ 3.40 GHz 3.40 GHz, 实验 代码 
在 MATLAB R2016a 上 运行 。 数 提 
也 不 同 。 如 果 数 扩 


的 流行 度 分 布 


的 稀 玻 度 不 同 ， 其 项 目 
虽 集 的 稀 玻 度 s 较 高 ， 其 项 目 


流行 度 则 普遍 1 
文 算法 将 ML-1M 数 提 
长 为 0.1; Epinion 数 提 


遍 低 。 通 过 分 析 实 验 数 据 集 
帘 行 度 闷 值 w 设置 为 [0.2,0.6]， 步 
帘 行 度 闵 值 c 设置 为 [0.1,0.3], 步 


流行 度 ， 本 


长 为 0.05; 邻居 数量 取 值 为 [10,100]， 步 长 为 10; 推荐 列表 


长 度 L=10。 


3.4 实验 结果 及 分 析 
3.4.1 ML-1M 数据 集 


为 了 验证 不 后 


4 流行 度 阔 值 < 对 实验 


的 影响 ， 通 过 


A dan ey 


据 集 中 ， 随 着 邻 


的 影响 如 图 1 所 示 。 随 着 流行 
MAE 值 保 持 在 [0.76,0.766] 间 。 


司 的 流行 度 阔 值 对 MAE 值 
阔 值 “ 的 变化 ， 本 文 算法 的 
当 流 行 度 阐 值 。 取 0.4 时 ， 


MAE 值 较 低 且 稳定 1 


流行 度 大 于 0.4 时 ， 对 


0.766 
0.765 
0.764 
和 
三 0.763 
0.762 


0.761 


0.76 


图 1 


Fig. 1 


其 项 目 间 的 相似 度 
该 数据 集 的 后 续 实 验 参 


30 40 50 60 70 80 90 


参数 & 对 MAE 值 的 影响 (ML-1M 数据 集 ) 
Effect of parameter a on MAE (ML-1M) 
Ph ,对比 算法 的 预测 准 


在 ML-1M 数据 集 


比 结果 如 图 2 所 示 。 


为 在 惩罚 项 目 间 的 相 
目的 流行 度 。W-UBCF、 i a 
行 度 对 相似 度 的 影 
居 数 量 为 50 时 ， 


确 度 较 低 ， 可 能 是 


二 六 饭 夺 的 WAE 达到 后 
于 其 他 对 比 算法 ， 具 有 更 高 的 预测 准确 度 。 
覆盖 率 的 对 比 实验 结 


的 算法 随 着 邻 


量 的 增加 会 导致 推荐 越 来 越 趋向 
而 W-UBCF、ECF、UA-IBCF 以 及 本 文 算法 PW-IBCF 随 着 


邻居 数量 的 增加 ， 禾 盖 率 逐渐 升 高 ， 表 明 


高 评分 预测 准确 度 ， 


一 一 02 
-B03 
—A—0.4 
-05 
——0.6 


100 


确 度 MAE 的 对 
2 可 知 , NOCS-IBCF 方法 的 预测 准 
以 度 时 并 未 考虑 项 


测 准 确 度 。 在 领 
， 约 为 0.76， 优 


晤 于 NCOS-IBCF 
数量 的 增加 ， 履 益 率 逐 浙 降低， 说 明 邻居 数 
于 热门 ， 导 致 履 盖 率 下 降 。 


E 荐 结果 的 多 样 性 


bb 逐渐 增加 。 


充 行 度 加 权 的 协同 过 滤 推 荐 算法 


和 新 颖 性 
氏 热 门 项 目的 推 


超过 30 时 ， 


10 20 30 40 50 60 70 80 90 100 


区 | 


ChinaXiv 合 作 期 刊 


即 考虑 项 目 流行 度 的 推 


第 37 卷 第 3 期 


着 算法 可 以 降 


荐 频率 ， 增 加 冷门 项 目的 推 


在 邻居 数量 


本 文 算法 的 覆盖 率 达 30% 
且 处 于 上 升 趋势 ， 表 现 出 


高 于 其 他 对 比 算法 ， 
更 好 的 推荐 性 能 


邻居 数量 


2 预测 准确 度 对比 结 果 (ML-1M 数据 全 


—e— NCOS-IBCF 
一 W-UBCF 
一 上 一 ECF 

> UA-IBCF 
—e— PW-IBCF 


Fig.2 Accuracy with different neighbors (ML-1M) 


10 


20 30 40 


< 


4 


3 覆盖 率 对 比 


70 80 90 100 


结果 (ML-1M 数据 集 


Li 


NCOS-IBCF 

W-UBCF 
ECF 
UA-IBCF 
PW-IBCF 


Fig.3 Coverage with different neighbors (ML-1M) 
3.4.2 Epinion 数据 集 


在 Epinion 数据 集中 , 不 同 的 流行 


j 于 提高 预测 准确 度 ， 


响 (Epinion 数据 集 


度 阔 值 对 MAE 值 的 影 


度 阔 值 x 的 变化 , 本文 算 法 的 MAE 
流行 度 阔 值 < 取 0.15 时 ， 
0.15 时 ， 对 其 项 目 间 
该 数据 集 的 后 


MAE 值 


一 一 0.1 
一 日 一 和 is 
一 02 
—%—0.25 
-03 


) 


响 如 图 4 所 示 。 随 着 流行 
值 保持 在 [0.79,0.8] 间 。 当 
较 低 且 稳定 性 较 好 。 当 项 目 流行 度 大 于 
的 相似 度 进行 惩罚 ， 有 不 
续 实 验 参 数 a 依 此 设置 。 
0.8 
0.798 
0.796 
3 
0.794 
0.792 
0.79 
10 20 30 40 50 60 0 80 90 100 
邻居 数量 
图 4 参数 & 对 MAE 值 的 影 
Fig.4 Effect of parameter a on MAE (Epinion) 
在 Epinion 数据 集中 ， 


对 比 算法 的 预测 准 


确 度 MAE 的 对 


比 结果 如 图 5 所 示 。 随 着 邻居 数量 的 变化 , 对 比 算法 的 MAE 


值 逐 渐 降低 


MAE 值 达到 最 


于 平缓 。 
， 约 为 0.79， 


法 具有 更 高 的 预测 准确 度 。 


覆盖 率 的 对 比 实验 结果 如 图 6 所 示 。 


在 邻居 数量 为 50 时 ， 本 文 算法 的 


优 于 对 比 算法 。 


此 ， 本 文 算 


基于 NCOS-IBCF 


201901.00058v1 


chinaXiv 


录用 定稿 


的 算法 随 着 邻居 数量 的 增加 ， 履 盖 率 呈 下 降 趋势 。W-UBCF、 
ECF、UA-IBCF 以 及 本 文 算法 PW-IBCF 随 着 邻居 数量 的 增 

， 履 盖 率 逐渐 升 高 。 在 邻居 数量 超过 50 时 ， 本 文 算法 的 覆 
盖 率 接近 23% ， 而 其 他 对 比 算法 约 为 20%， 本 文 算法 的 覆盖 
率 明 显 高 于 其 他 对 比 算 法 ,推荐 的 多 样 性 和 新 颖 性 表现 更 好 。 
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4 ”结束 语 

本 文 改进 了 利用 项 目 流行 度 计 算 项 目 相似 度 的 度量 
略 ， 提 出 了 一 种 结合 项 目 流行 / 度 加 权 的 协 问 过 汪 推 荐 舞 法 。 
在 传统 的 项 目 协同 过 滤 算 法 的 基础 上 ， 对 流行 度 较 高 的 项 


设计 相似 度 惩 罚 函 数 ， 提 高 相似 度 计 算 的 准确 性 ， 并 缓解 流 
行 度 偏差 问题 。 实 验 结果 表明 ， 当 项 目 流行 度 超过 一 定 闵 值 
时 ， 对 大 于 该 阔 值 的 项 目 相似 度 进行 相关 性 惩罚 ， 一 定 程 度 
上 可 以 提高 预测 准确 度 以 及 推荐 多 样 性 。 考 虑 到 用 户 对 流行 
项 目的 偏好 程度 对 相似 度 也 有 影响 ， 将 用 户 对 流行 项 目的 偏 
好 程度 融入 相似 度 计 算 ， 以 获得 更 好 的 推荐 性 能 是 后 续 工 作 
的 主要 方向 。 
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